iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 8
0
AI & Data

Machine Learning系列 第 8

Day8-Feature Engineering -- 2. Categorical Encoding(7)結論

  • 分享至 

  • xImage
  •  

2. Categorical Encoding 結論

前一篇後半部 將 Categorical Encoding 依轉換類別變數成數值型變數的方式,分成三類:

  1. Classic Encoders:
    這類是最直接和最容易了解的轉換方法,也最常見和非常受歡迎。假如不確定要使用哪一種,使用One-Hot encoding 是一個好的開始;這也是直覺的選擇,因為 One-Hot encoding 容易被使用和了解,它還有通用性和正確性的優點。

  2. Contrast Encoders:
    這是一個革新的轉換方法,這個方法藉由檢驗變數下各個類別,進而找出類別之間的數學樣式(mathematical patterns)。

  3. Bayesian Encoders:
    這是一個進階的方法, 它使用了標籤(target or label)變數 。
    這個方法和 Classic Encoders 不一樣的地方,除了本身變數資訊外,用了標籤變數的資訊,此外,它只產生一個欄位,因此排除了 high-dimensionality 的疑慮 。
    優點:不需要費太大功夫,對同一變數下的多個類別只產生一個變數,參加Kaggle競賽者最喜歡用的方法。
    缺點:只能用於監督是機器學習(supervised learning),(因此標籤(target or label)會洩漏訊息 ),使用在unsupervised data上,結果會變得更糟糕,需要regularization。

類別轉換(categorical encoding)最困難的地方是找尋最恰當的方法,嘗試不同的方法,才能找出最適當的方法。下圖可以幫助大家找出最佳方法

https://ithelp.ithome.com.tw/upload/images/20200908/20129584z72nrmjkxp.png
資料來源:https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02

注:文中所提到的資料集(dataset)是指類似表格結構的資料,所以每列(row)資料等於是樣本(sample)或觀測資料(observation),而其對應的欄(column)則是特徵(feature)、變數(variable)、 欄位(column)。標籤(label)在文中也會和標的(target)、應變項(Dependent variables)交替使用。


上一篇
Day7-Feature Engineering -- 2. Categorical Encoding(6)
下一篇
Day-9 Feature Engineering -- 3. Variable transformation 變數轉換
系列文
Machine Learning32
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言